Unsupervised pre-training on millions of digital-born or scanned documents has shown promising advances in visual document understanding~(VDU). While various vision-language pre-training objectives are studied in existing solutions, the document textline, as an intrinsic granularity in VDU, has seldom been explored so far. A document textline usually contains words that are spatially and semantically correlated, which can be easily obtained from OCR engines. In this paper, we propose Wukong-Reader, trained with new pre-training objectives to leverage the structural knowledge nested in document textlines. We introduce textline-region contrastive learning to achieve fine-grained alignment between the visual regions and texts of document textlines. Furthermore, masked region modeling and textline-grid matching are also designed to enhance the visual and layout representations of textlines. Experiments show that our Wukong-Reader has superior performance on various VDU tasks such as information extraction. The fine-grained alignment over textlines also empowers Wukong-Reader with promising localization ability.
translated by 谷歌翻译
The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.
translated by 谷歌翻译
图异常检测(GAD)是至关重要的任务,因为即使有一些异常也可能对良性用户构成巨大威胁。最近可以有效利用可用标签作为先验知识的半监督GAD方法比无监督的方法实现了卓越的性能。实际上,人们通常需要在新(子)图上识别异常以确保其业务,但他们可能缺乏培训有效检测模型的标签。一个自然的想法是将经过训练的GAD模型直接在新的(子)图中进行测试。但是,我们发现现有的半监督GAD方法遇到了不良的概括问题,即训练有素的模型无法在同一图的看不见的区域(即无法在培训中无法访问)上表现良好。这可能会造成极大的麻烦。在本文中,我们以这种现象为基础,并提出了广义图异常检测的一般研究问题,旨在有效地识别训练域图和看不见的测试图,以消除潜在的危险。然而,这是一项具有挑战性的任务,因为只有有限的标签可用,并且正常背景在培训和测试数据之间可能有所不同。因此,我们提出了一个名为\ textit {augan}(\ uline {augan}的数据增强方法,用于\ uline {a} nomaly和\ uline {n} ormal分布),以丰富培训数据并促进GAD模型的普遍性。实验验证了我们方法在改善模型推广性方面的有效性。
translated by 谷歌翻译
关于无监督的域适应性(UDA)的广泛研究已将有限的实验数据集深入学习到现实世界中无约束的领域。大多数UDA接近通用嵌入空间中的对齐功能,并将共享分类器应用于目标预测。但是,由于当域差异很大时可能不存在完全排列的特征空间,因此这些方法受到了两个局限性。首先,由于缺乏目标标签监督,强制域的比对会恶化目标域的可区分性。其次,源监督分类器不可避免地偏向源数据,因此它在目标域中的表现可能不佳。为了减轻这些问题,我们建议在两个集中在不同领域的空间中同时进行特征对齐,并为每个空间创建一个针对该域的面向域的分类器。具体而言,我们设计了一个面向域的变压器(DOT),该变压器(DOT)具有两个单独的分类令牌,以学习不同的面向域的表示形式和两个分类器,以保持域的可区分性。理论保证的基于对比度的对齐和源指导的伪标签细化策略被用来探索域名和特定信息。全面的实验验证了我们的方法在几个基准上实现了最先进的方法。
translated by 谷歌翻译
自动检测异常轨迹是智能运输系统中大量应用的重要问题。许多现有的研究集中在区分异常轨迹和正常轨迹上,忽略了异常轨迹之间的巨大差异。最近的一项研究在鉴定异常轨迹模式方面取得了长足进步,并提出了一种两阶段算法,用于异常轨迹检测和分类(ATDC)。该算法具有出色的性能,但受到了一些局限性,例如高时间的复杂性和不良的解释。在这里,我们对ATDC算法进行了仔细的理论和经验分析,表明可以简化两个阶段的异常得分的计算,并且该算法的第二阶段比第一阶段重要得多。因此,我们开发了一种FastATDC算法,该算法在两个阶段都引入了随机抽样策略。实验结果表明,FastATDC在实际数据集上的速度比ATDC快10到20倍。此外,FastAtDC优于基线算法,与ATDC算法相当。
translated by 谷歌翻译
对抗性深度学习是为了训练强大的DNN,以防止对抗性攻击,这是深度学习的主要研究之一。游戏理论已被用来回答有关对抗性深度学习的一些基本问题,例如具有最佳鲁棒性的分类器的存在以及给定类别的分类器的最佳对抗样本。在以前的大多数工作中,对抗性深度学习是同时进行的,并且假定策略空间是某些概率分布,以使NASH平衡存在。但是,此假设不适用于实际情况。在本文中,我们通过将对抗性深度学习作为顺序游戏提出,为分类器是具有给定结构的DNN的实际情况提供了这些基本问题的答案。证明了这些游戏的Stackelberg Equilibria的存在。此外,当使用Carlini-Wagner的边缘损失时,平衡DNN具有相同结构的所有DNN中最大的对抗精度。从游戏理论方面也研究了对抗性深度学习的鲁棒性和准确性之间的权衡。
translated by 谷歌翻译
对看不见的环境变化的深入强化学习的概括通常需要对大量各种培训变化进行政策学习。我们从经验上观察到,接受过许多变化的代理商(通才)倾向于在一开始就更快地学习,但是长期以来其最佳水平的性能高原。相比之下,只接受一些变体培训的代理商(专家)通常可以在有限的计算预算下获得高回报。为了两全其美,我们提出了一个新颖的通才特权训练框架。具体来说,我们首先培训一名通才的所有环境变化。当它无法改善时,我们会推出大量的专家,并从通才克隆过重量,每个人都接受了训练,以掌握选定的一小部分变化子集。我们终于通过所有专家的示范引起的辅助奖励恢复了通才的培训。特别是,我们调查了开始专业培训的时机,并在专家的帮助下比较策略以学习通才。我们表明,该框架将政策学习的信封推向了包括Procgen,Meta-World和Maniskill在内的几个具有挑战性和流行的基准。
translated by 谷歌翻译
协作多代理增强学习(MARL)已在许多实际应用中广泛使用,在许多实际应用中,每个代理商都根据自己的观察做出决定。大多数主流方法在对分散的局部实用程序函数进行建模时,将每个局部观察结果视为完整的。但是,他们忽略了这样一个事实,即可以将局部观察信息进一步分为几个实体,只有一部分实体有助于建模推理。此外,不同实体的重要性可能会随着时间而变化。为了提高分散政策的性能,使用注意机制用于捕获本地信息的特征。然而,现有的注意模型依赖于密集的完全连接的图,并且无法更好地感知重要状态。为此,我们提出了一个稀疏的状态MARL(S2RL)框架,该框架利用稀疏的注意机制将无关的信息丢弃在局部观察中。通过自我注意力和稀疏注意机制估算局部效用函数,然后将其合并为标准的关节价值函数和中央评论家的辅助关节价值函数。我们将S2RL框架设计为即插即用的模块,使其足够一般,可以应用于各种方法。关于Starcraft II的广泛实验表明,S2RL可以显着提高许多最新方法的性能。
translated by 谷歌翻译
随机梯度下降(SGD)是现代机器学习(ML)系统的基石。尽管具有其计算效率,但SGD仍需要随机数据访问,这些数据访问在依赖块可调地理的二级存储的系统中实现效率低下,例如HDD和SSD,例如TensorFlow/Pytorch和DB ML系统,而不是大文件。为了解决这种阻抗不匹配,已经提出了各种数据改组策略,以平衡SGD的收敛速率(有利于随机性)及其I/O性能(有利于顺序访问)。在本文中,我们首先对现有数据改组策略进行系统的实证研究,该研究表明,所有现有策略都有改进的空间 - 它们都在I/O性能或融合率方面受苦。考虑到这一点,我们提出了一种简单但新颖的分层数据改组策略Corgipile。与现有的策略相比,Corgipile避免了完整的数据洗牌,同时保持SGD的可比收敛速度,就好像执行了完整的混音一样。我们对Corgipile的融合行为提供了非平凡的理论分析。我们通过在新的CorgipileDataSet API中设计新的平行/分布式洗牌操作员来进一步将Corgipile整合到Pytorch中。我们还通过介绍具有优化的三个新的物理运营商,将Corgipile集成到PostgreSQL中。我们的实验结果表明,Corgipile可以与全面的SGD达到可比的收敛速率,以实现深度学习和广义线性模型。对于ImageNet数据集的深度学习模型,Corgipile比带有完整数据洗牌的Pytorch快1.5倍。对于具有线性模型的INDB ML,在HDD和SSD上,Corgipile的Corgipile比两个最先进的IN-DB ML系统(Apache Madlib和Bismarck)快1.6 x-12.8倍。
translated by 谷歌翻译
大型文本引导的扩散模型(例如Dalle-2)能够在自然语言描述下生成令人惊叹的影像图像。尽管这样的模型非常灵活,但它们很难理解某些概念的组成,例如使不同对象的属性或对象之间的关系混淆。在本文中,我们提出了一种使用扩散模型的替代结构化方法来生成组成。图像是通过组成一组扩散模型来生成的,每个扩散模型都对图像的某个组件进行建模。为此,我们将扩散模型解释为基于能量的模型,其中可以明确组合能量函数定义的数据分布。所提出的方法可以在测试时间生成比训练中看到的场景要复杂得多,构成句子描述,对象关系,人面部属性,甚至对在现实世界中很少见的新组合进行推广。我们进一步说明了如何使用我们的方法来组成预训练的文本引导的扩散模型,并生成包含输入描述中描述的所有细节的影像图像,包括对Dalle-2表现出的某些对象属性的结合。这些结果表明,所提出的方法在促进视觉产生的结构化概括方面的有效性。项目页面:https://energy-lase-model.github.io/compositional-visual-generation-with-composable-diffusion-models/
translated by 谷歌翻译